Biến thể Q-learning_(học_tăng_cường)

Q-learning sâu

Hệ thống DeepMind đã sử dụng một mạng lưới thần kinh tích chập sâu, với các lớp bộ lọc tích chập để mô phỏng các hiệu ứng của các lĩnh vực tiếp nhận. Học tăng cường không ổn định hoặc phân kỳ khi xấp xỉ hàm phi tuyến như mạng nơ ron được sử dụng để biểu diễn Q. Sự không ổn định này xuất phát từ các tương quan có trong chuỗi các quan sát, thực tế là các cập nhật nhỏ cho Q có thể thay đổi đáng kể chính sách và dữ liệu phân phối và mối tương quan giữa Q và các giá trị đích.

Kỹ thuật sử dụng phát lại kinh nghiệm, một cơ chế lấy cảm hứng từ sinh học sử dụng một mẫu ngẫu nhiên các hành động trước thay vì hành động gần đây nhất để tiến hành.[2] Điều này loại bỏ các mối tương quan trong chuỗi quan sát và làm mịn các thay đổi trong phân phối dữ liệu. Cập nhật lặp điều chỉnh Q theo các giá trị đích chỉ được cập nhật định kỳ, giảm hơn nữa tương quan với mục tiêu.[19]

Q-learning đôi

Bởi vì giá trị hành động xấp xỉ tối đa trong tương lai trong Q-learning được đánh giá bằng cách sử dụng chức năng Q ở trong chính sách lựa chọn hành động hiện tại, trong môi trường nhiễu, Q-learning đôi khi có thể đánh giá quá cao các giá trị hành động, làm chậm quá trình học. Một biến thể được gọi là Double Q-learning đã được đề xuất để sửa lỗi này. Double Q-learning [20] là một thuật toán học lại tăng cường ngoài chính sách, trong đó một chính sách khác được sử dụng để đánh giá giá trị so với chính sách được sử dụng để chọn hành động tiếp theo.

Trong thực tế, hai hàm giá trị riêng biệt được đào tạo theo kiểu đối xứng lẫn nhau bằng cách sử dụng các trải nghiệm riêng biệt, Q A {\displaystyle Q^{A}} và Q B {\displaystyle Q^{B}} . Bước cập nhật Q-learning đôi như sau:

Q t + 1 A ( s t , a t ) = Q t A ( s t , a t ) + α t ( s t , a t ) ( r t + γ Q t B ( s t + 1 , a r g   m a x a ⁡ Q t A ( s t + 1 , a ) ) − Q t A ( s t , a t ) ) {\displaystyle Q_{t+1}^{A}(s_{t},a_{t})=Q_{t}^{A}(s_{t},a_{t})+\alpha _{t}(s_{t},a_{t})\left(r_{t}+\gamma Q_{t}^{B}\left(s_{t+1},\mathop {\operatorname {arg~max} } _{a}Q_{t}^{A}(s_{t+1},a)\right)-Q_{t}^{A}(s_{t},a_{t})\right)} và Q t + 1 B ( s t , a t ) = Q t B ( s t , a t ) + α t ( s t , a t ) ( r t + γ Q t A ( s t + 1 , a r g   m a x a ⁡ Q t B ( s t + 1 , a ) ) − Q t B ( s t , a t ) ) . {\displaystyle Q_{t+1}^{B}(s_{t},a_{t})=Q_{t}^{B}(s_{t},a_{t})+\alpha _{t}(s_{t},a_{t})\left(r_{t}+\gamma Q_{t}^{A}\left(s_{t+1},\mathop {\operatorname {arg~max} } _{a}Q_{t}^{B}(s_{t+1},a)\right)-Q_{t}^{B}(s_{t},a_{t})\right).}

Bây giờ giá trị ước tính của tương lai được đánh giá bằng cách sử dụng một chính sách khác, cái giải quyết vấn đề đánh giá quá cao.

Thuật toán này sau đó được kết hợp với học sâu, thành thuật toán DQN, dẫn đến Double DQN, vượt trội hơn thuật toán DQN ban đầu.[21]

Khác

Q-learning bị trì hoãn là một triển khai thay thế của thuật toán Q -learning trực tuyến, với việc học đúng xấp xỉ với xác suất cao (PAC).[22]

GQ tham lam là một biến thể của Q -learning để sử dụng kết hợp với xấp xỉ hàm (tuyến tính).[23] Ưu điểm của GQ tham lam là sự hội tụ được đảm bảo ngay cả khi sử dụng xấp xỉ hàm để ước tính các giá trị hành động.

Liên quan

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf